信息时代,档案数字化已成为今后一段时期档案工作的重中之重,纸质档案扫描工作在各地如火如荼地进行。然而,扫描所产生的电子档案实际上只是以图像形式存在的文件,而非真正意义上的文本文件。也就是说,计算机只认识档案的外表,却不认识其内在文字。用户通过计算机只能看到档案的原貌,却不能对其中的内容进行引用、检索等操作,这无疑对将来的电子档案利用工作造成了很大的不便。考虑到档案用户的利用需求,若要得到真正文本形态的电子档案,使档案数字化工作更加有效、更加彻底,便要应用到OCR技术。
一、OCR概况
所谓OCR(Optical Character Recognition)即光学字符识别。通俗点说,就是让计算机
“认字”。其原理是通过专门的OCR软件将含有文字的图像按字切割成可独立识别的单元,然后运用各种算法分析每个图像单元中文字的形态特征。通过比对标准特征库中的数据,判断出该文字在计算机中的标准编码并按通用格式输出保存在文本文件中。
OCR的工作流程为影像输入、影像前处理、文字特征抽取、比对识别、人工校正、最后将识别结果输出保存。①虽然一张图像真正用于软件识别的时间不到一秒,但前期和后的加工处理不可小视。尤其是前两个环节的操作,往往决定了OCR软件的识别率,乃至整个OCR工作的效率。而后期人工校正环节,则是保证OCR工作质量的最直接环节。
二、OCR技术的优势及其在档案数字化过程中的应用
OCR技术相对于传统的手工录入方式来说,具有强大的优势。首先,OCR文字识别的速度远快于手工录入。根据国际通行的打字速度评级标准,即使是专业人员,每分钟也仅能输入150~240个字。而采用OCR技术,即使算上前后期的处理环节所花时间,其速度也绝对比前者快好多倍。其次,OCR文字识别的质量远高于手工录入。虽然由于各种因素影响,OCR技术的识别率很难达到100%,但比起大批量手工录入,其出错率要小得多。最后,OCR还节省了大量人力资源,优化了资源配置,使人员分配于更加有意义的工作。
对于档案数字化工作来说,OCR技术除了具有以上几个普遍的优势之外,还有其独特的用武之地。
1.创新著录标引方式
创建档案目录数据库是一项较基础的档案数字化工作,目前大多数档案馆都在进行这项工作很多档案馆已建成较为完备的目录库。然而各档案部门的档案条目基本都是通过手工录入的,既费时又费力,还很容易出错。尤其是一些档案、标题很长,又是“印发”又是“转发”一个题名就占了好几行,要输入老半天。
OCR技术提供了一种新的著录方式,使档案条目通过计算机录入成为可能。工作人员可以直接从OCR后的全文中找到著录项:如题名、文号、责任者等复制粘贴到目录数据库的相应字段中去。
但这么做必须先扫描档案全文、OCR然后再输条目,颠覆了档案数字化工作的一般工作流程。因此可行性并不高。还有一种方法是先将档案卷内目录扫描、OCR处理,再复制粘贴条目或通过特定的程序自动采集条目信息
但由于很多卷内目录是手写的OCR无法识别,只得依靠手工录入。相信随着未来技术的发展,OCR在这方面的应用一定能够有所突破。
此外,系统还可以对OCR后的档案全文进行词频统计、内容分析从而自动提取关键词、主题词等标识符一定程度上实现了档案内容的自动标引。
2.实现真正的全文检索
档案工作中所说的全文检索实际包括两种类型:一种是仅对档案目录数据库进行检索,找到相关条目后再打开相应的档案全文。目前档案馆大多采用这种检索方式。且尚有很多档案没有电子全文。另一种是真正的全文检索,即直接对档案全文库进行检索,而且是对档案全文进行逐字检索。很明显,后一种检索方式的查全率比前者要高出很多。使用户能从浩如烟海的档案馆藏中找到更多所需信息,更深入地开发利用档案信息资源。而要实现真正的全文检索自然离不开OCR技术,因为只有将扫描图像中的文字变成文本格式,才有可能对其中的文字进行逐字检索。
3.支持双层PDF技术
所谓双层PDF,就是一个PDF文件中的每一页都包含两层,上层是扫描所得到原始图,下层是OCR识别的文字结果。这种技术在数字图书馆领域已得到广泛应用。我们在CNKI等数据库中检索到的PDF格式的电子文献大多采用了双层PDF技术。
由于采用双层PDF技术既能较好地保证档案的原真性,在用户需要时又能对档案中的文字进行选择、复制、搜索等处理。因此必将在今后的档案数字化工作中越来越得到青睐。而这一技术的运用必须首先以OCR技术为支撑。
4.拓宽档案用户利用面
以往的档案用户大多是基于档案的凭证价值而对其加以利用如政府查阅某份文件、居民查阅房产证、结婚证、学籍卡等这些利用需求对档案的原真性要求较高。很多情况下还是需要纸质档案才能发挥作用。但档案用户的利用面绝不应该仅限于此,档案除了拥有凭证价值还与图书、情报一样具有情报价值、参考价值。如利用档案进行学术研究时,用户就更加注重档案的知识性、信息性但如果档案是纸质的要利用其中的内容就必须亲自去档案馆。通过印刷或手工摘录所需信息,非常不便以至于有些用户转而通过网站或数字图书馆查阅所需信息。
将纸质档案数字化并采用OCR识别,能够使档案信息资源实现全文检索、网络传输、方便用户异地检索、复制引用。从而深化用户对档案内容的查询与利用,拓宽其利用面。使档案也能像图书、情报一样成为人们日常生活中获取信息、利用信息、增加学识的手段使档案多方面地服务于公众。
三、提高档案数字化过程中的OCR识别率OCR识别率是整个OCR工作的中心问题。有专家认为,OCR识别率低于90%,采用OCR技术便毫无意义因为后期需要进行大量的人工校正工作,抵消了OCR所带来的效率。
对于档案数字化这样浩大的工程来说,提高OCR识别率意味着成倍减少花在OCR工作上的人力物力和时间精力。从而提高整个档案数字化工作的效率极大地降低档案数字化的成本。